智能论文笔记

Learned Coarse Models for Efficient Turbulence Simulation

Kimberly Stachenfeld , Drummond B. Fielding , Dmitrii Kochkov , Miles Cranmer , Tobias Pfaff , Jonathan Godwin , Can Cui , Shirley Ho , Peter Battaglia , Alvaro Sanchez-Gonzalez

分类：机器学习

2021-12-31

具有经典数字求解器的湍流模拟需要非常高分辨率的网格来准确地解决动态。在这里，我们以低空间和时间分辨率培训学习模拟器，以捕获高分辨率产生的湍流动态。我们表明我们所提出的模型可以比各种科学相关指标的相同低分辨率的经典数字求解器更准确地模拟湍流动态。我们的模型从数据训练结束到底，能够以低分辨率学习一系列挑战性的混乱和动态动态，包括最先进的雅典娜++发动机产生的轨迹。我们表明，我们的更简单，通用体系结构优于来自所学到的湍流模拟文献的各种专业的湍流特异性架构。一般来说，我们看到学习的模拟器产生不稳定的轨迹;但是，我们表明调整训练噪音和时间下采样解决了这个问题。我们还发现，虽然超出培训分配的泛化是学习模型，训练噪声，卷积架构以及增加损失约束的挑战。广泛地，我们得出的结论是，我们所知的模拟器优于传统的求解器在较粗糙的网格上运行，并强调简单的设计选择可以提供稳定性和鲁棒的泛化。

translated by 谷歌翻译

Deep Learning Generates Synthetic Cancer Histology for Explainability and Education

James M. Dolezal , Rachelle Wolk , Hanna M. Hieromnimon , Frederick M. Howard , Andrew Srisuwananukorn , Dmitry Karpeyev , Siddhi Ramesh , Sara Kochanny , Jung Woo Kwon , Meghana Agni

分类：计算机视觉

2022-11-12

Artificial intelligence methods including deep neural networks (DNN) can provide rapid molecular classification of tumors from routine histology with accuracy that matches or exceeds human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools help provide insights into what models have learned when corresponding histologic features are poorly defined. Here, we present a method for improving explainability of DNN models using synthetic histology generated by a conditional generative adversarial network (cGAN). We show that cGANs generate high-quality synthetic histology images that can be leveraged for explaining DNN models trained to classify molecularly-subtyped tumors, exposing histologic features associated with molecular state. Fine-tuning synthetic histology through class and layer blending illustrates nuanced morphologic differences between tumor subtypes. Finally, we demonstrate the use of synthetic histology for augmenting pathologist-in-training education, showing that these intuitive visualizations can reinforce and improve understanding of histologic manifestations of tumor biology.

translated by 谷歌翻译

Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset

Grant Van Horn , Rui Qian , Kimberly Wilber , Hartwig Adam , Oisin Mac Aodha , Serge Belongie

分类：计算机视觉 | 机器学习

2022-07-21

我们提出了一个新的基准数据集，即Sapsucker Woods 60（SSW60），用于推进视听细颗粒分类的研究。尽管我们的社区在图像上的细粒度视觉分类方面取得了长足的进步，但音频和视频细颗粒分类的对应物相对尚未探索。为了鼓励在这个领域的进步，我们已经仔细构建了SSW60数据集，以使研究人员能够以三种不同的方式对相同的类别进行分类：图像，音频和视频。该数据集涵盖了60种鸟类，由现有数据集以及全新的专家策划音频和视频数据集组成。我们通过使用最先进的变压器方法进行了彻底基准的视听分类性能和模态融合实验。我们的发现表明，视听融合方法的性能要比仅使用基于图像或音频的方法来进行视频分类任务要好。我们还提出了有趣的模态转移实验，这是由SSW60的独特构造所涵盖的三种不同模态所实现的。我们希望SSW60数据集和伴随的基线在这个迷人的地区进行研究。

translated by 谷歌翻译

On Label Granularity and Object Localization

Elijah Cole , Kimberly Wilber , Grant Van Horn , Xuan Yang , Marco Fornoni , Pietro Perona , Serge Belongie , Andrew Howard , Oisin Mac Aodha

分类：计算机视觉 | 机器学习

2022-07-20

弱监督的对象本地化（WSOL）旨在学习仅使用图像级类别标签编码对象位置的表示形式。但是，许多物体可以在不同水平的粒度标记。它是动物，鸟还是大角的猫头鹰？我们应该使用哪些图像级标签？在本文中，我们研究了标签粒度在WSOL中的作用。为了促进这项调查，我们引入了Inatloc500，这是一个新的用于WSOL的大规模细粒基准数据集。令人惊讶的是，我们发现选择正确的训练标签粒度比选择最佳的WSOL算法提供了更大的性能。我们还表明，更改标签粒度可以显着提高数据效率。

translated by 谷歌翻译

TabText: a Systematic Approach to Aggregate Knowledge Across Tabular Data Structures

Dimitris Bertsimas , Kimberly Villalobos Carballo , Yu Ma , Liangyuan Na , Léonard Boussioux , Cynthia Zeng , Luis R. Soenksen , Ignacio Fuentes

分类：机器学习

2022-06-21

以富有成效和有效的方式处理和分析表格数据对于在医疗保健等领域的成功应用程序中的成功应用至关重要。但是，缺乏代表和标准化表格信息的统一框架对研究人员和专业人员都构成了重大挑战。在这项工作中，我们介绍了TabText，一种利用语言的非结构化数据格式的方法论，可以有效，准确地从不同的表结构和时间段编码表格数据。我们使用两个医疗保健数据集和四个预测任务，这些任务通过TabText提取的特征优于传统处理方法提取的那些提取的任务，而这些任务的功能却高于2-5％。此外，我们分析了框架对缺失价值观，元信息和语言描述性句子表示的不同选择的敏感性，并为赢得改善绩效的策略提供了见解。

translated by 谷歌翻译

A Methodological Framework for the Comparative Evaluation of Multiple Imputation Methods: Multiple Imputation of Race, Ethnicity and Body Mass Index in the U.S. National COVID Cohort Collaborative

Elena Casiraghi , Rachel Wong , Margaret Hall , Ben Coleman , Marco Notaro , Michael D. Evans , Jena S. Tronieri , Hannah Blau , Bryan Laraway , Tiffany J. Callahan

分类：人工智能

2022-06-13

尽管电子健康记录是生物医学研究的丰富数据来源，但这些系统并未在医疗环境中统一地实施，并且由于医疗保健碎片化和孤立的电子健康记录之间缺乏互操作性，可能缺少大量数据。考虑到缺少数据的案例的删除可能会在随后的分析中引起严重的偏见，因此，一些作者更喜欢采用多重插补策略来恢复缺失的信息。不幸的是，尽管几项文献作品已经通过使用现在可以自由研究的任何不同的多个归档算法记录了有希望的结果，但尚无共识，MI算法效果最好。除了选择MI策略之外，归纳算法及其应用程序设置的选择也至关重要且具有挑战性。在本文中，受鲁宾和范布伦的开创性作品的启发，我们提出了一个方法学框架，可以应用于评估和比较多种多个插补技术，旨在选择用于计算临床研究工作中最有效的推断。我们的框架已被应用于验证和扩展较大的队列，这是我们在先前的文献研究中提出的结果，我们在其中评估了关键患者的描述符和Covid-19的影响在2型糖尿病患者中的影响，其数据为2型糖尿病，其数据为2型糖尿病由国家共同队列合作飞地提供。

translated by 谷歌翻译

Registering Articulated Objects With Human-in-the-loop Corrections

Michael Hagenow , Emmanuel Senft , Evan Laske , Kimberly Hambuchen , Terrence Fong , Robert Radwin , Michael Gleicher , Bilge Mutlu , Michael Zinn

分类：机器人

2022-03-11

远程编程机器人执行任务通常依赖于在机器人环境中注册感兴趣的对象。这些任务通常涉及阐明物体，例如打开或关闭阀门。但是，现有的注册对象的人类在循环方法中不考虑发音和对象几何形状的相应影响，这可能导致方法失败。在这项工作中，我们提出了一种方法，其中注册系统尝试使用非线性拟合和迭代性最接近点算法来自动确定用户选择点的对象模型，姿势和表达。当拟合不正确时，操作员可以迭代干预校正，然后系统将重新装置对象。我们介绍了具有反击关节的一种自由度（DOF）对象的拟合程序的实施，并通过用户研究对其进行评估，该用户研究表明，它可以改善用户的性能，在任务和任务负载的时间范围内，易于与手动注册方法相比，使用和有用性。我们还提出了一个示例，该示例将我们的方法集成到一个端到端系统中，以阐明远程阀。

translated by 谷歌翻译

Integrated multimodal artificial intelligence framework for healthcare applications

Luis R. Soenksen , Yu Ma , Cynthia Zeng , Leonard D. J. Boussioux , Kimberly Villalobos Carballo , Liangyuan Na , Holly M. Wiberg , Michael L. Li , Ignacio Fuentes , Dimitris Bertsimas

分类：机器学习 | 人工智能

2022-02-25

人工智能（AI）系统在接下来的几十年中有很大的希望可以改善医疗保健。具体而言，利用多个数据源和输入模式的AI系统有望成为一种可行的方法，可以在广泛的应用程序中提供更准确的结果和可部署的管道。在这项工作中，我们提出并评估一个统一的医学中的整体AI（HAIM）框架，以促进利用多模式输入的AI系统的生成和测试。我们的方法使用可通用的数据预处理和机器学习建模阶段，可以很容易地适应医疗保健环境中的研究和部署。我们通过训练和表征基于MIMIC-IV-MM的14,324个独立模型来评估我们的HAIM框架，该模型是一种多模式临床数据库（n = 34,537个样本），其中包含7,279个独特的住院和6,485名患者，涵盖了4个数据模态的所有可能输入组合（即，所有可能的输入组合）表格，时间序列，文本和图像），11个独特的数据源和12个预测任务。我们表明，该框架可以始终如一地生产出在各种医疗保健示范中超过相似的单源方法的模型（乘以6-33％），包括10种不同的胸部病理学诊断，以及休息时间和48小时的死亡率预测。我们还使用Shapley值量化了每种模式和数据源的贡献，这证明了数据类型重要性的异质性以及在不同医疗保健相关的任务中多模式输入的必要性。我们的整体医学AI（HAIM）框架的可推广性能和灵活性可以为未来的临床和运营医疗环境中的多模式预测系统提供有希望的途径。

translated by 谷歌翻译

Detecting Distributional Differences in Labeled Sequence Data with Application to Tropical Cyclone Satellite Imagery

Trey McNeely , Galen Vincent , Kimberly M. Wood , Rafael Izbicki , Ann B. Lee

分类： (统计)机器学习

2022-02-04

我们的目标是量化热带旋风（TC）卫星图像中的时空模式是否以及如何量化，信号是即将发生的快速强度变化事件。为了解决这个问题，我们提出了一个新的非参数测试，对图像的时间序列和一系列二进制事件标签之间的关联测试。我们询问在事件之前与非事件之前的图像的24小时序列之间的分布差异（相关但分布相同）之间是否存在差异。通过将统计检验重写为回归问题，我们利用神经网络来推断TC对流的结构演变模式，这些模式代表了促进快速强度变化事件的导致。附近序列之间的依赖性通过估计标签系列边际分布的自举程序来处理。我们证明，只要标签系列的分布得到充分估计，就可以保证I型错误控制，这可以通过二进制TC事件标签的广泛历史数据更容易。我们表明的经验证据表明，我们提出的方法确定了与快速强化风险相关的红外图像原型，通常以随着时间的推移深度或深化核心对流标记。这样的结果为改善快速强化的预测提供了基础。

translated by 谷歌翻译

A Robust Optimization Approach to Deep Learning

Dimitris Bertsimas , Xavier Boix , Kimberly Villalobos Carballo , Dick den Hertog

分类：机器学习 | (统计)机器学习

2021-12-17

许多最先进的对抗性培训方法利用对抗性损失的上限来提供安全保障。然而，这些方法需要在每个训练步骤中计算，该步骤不能包含在梯度中的梯度以进行反向化。我们基于封闭形式的对抗性损失的封闭溶液引入了一种新的更具内容性的对抗性培训，可以有效地培养了背部衰退。通过稳健优化的最先进的工具促进了这一界限。我们使用我们的方法推出了两种新方法。第一种方法（近似稳健的上限或arub）使用网络的第一阶近似以及来自线性鲁棒优化的基本工具，以获得可以容易地实现的对抗丢失的近似偏置。第二种方法（鲁棒上限或摩擦）计算对抗性损失的精确上限。在各种表格和视觉数据集中，我们展示了我们更加原则的方法的有效性 - 摩擦比最先进的方法更强大，而是较大的扰动的最新方法，而谷会匹配的性能 - 小扰动的艺术方法。此外，摩擦和灌注速度比标准对抗性培训快（以牺牲内存增加）。重现结果的所有代码都可以在https://github.com/kimvc7/trobustness找到。

translated by 谷歌翻译